El Marco Matemático
El objetivo principal es encontrar un vector $x \in \mathbb{R}^n$ tal que la combinación lineal $Ax = x_1a_1 + \dots + x_na_n$ aproxime lo mejor posible a $b$. Esto se refiere frecuentemente como la regresión de $b$ sobre los regresores (las columnas de $A$).
Nos centramos en el vector residual $r = Ax - b$. En la práctica, suponemos un sistema sobredeterminado donde $m > n$. ¿Por qué? Porque cuando $m = n$ y $A$ es no singular, el punto óptimo es simplemente $A^{-1}b$, lo que da un error cero — un caso trivial para la optimización.
Variaciones Canónicas
Dependiendo del tipo de error que queramos penalizar, elegimos distintas normas:
El enfoque más común. Minimiza la suma de los cuadrados de los residuos: $\|Ax - b\|_2^2$. Es sensible a valores extremos, pero ofrece una solución analítica mediante las ecuaciones normales.
Minimiza el máximo residual absoluto $\max_i |r_i|$. Se utiliza cuando cada medición individual debe permanecer dentro de un límite estricto. Puede resolverse mediante el siguiente Problema Lineal (PL):
minimizar $t$
sujeto a $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$
Minimiza $\sum |r_i|$. Este enfoque es resistente a valores extremos, ya que no eleva al cuadrado los errores. También puede resolverse mediante un PL:
minimizar $\mathbf{1}^T t$
sujeto a $-t \preceq Ax - b \preceq t$
Contexto de Estimación
En muchos campos de la ingeniería, asumimos que un estado verdadero $x$ está oscurecido por ruido: $y = Ax + v$. Nuestro objetivo es encontrar una estimación $\hat{x} = \text{argmin}_z \|Az - y\|$. Al elegir la norma, estamos haciendo implícitamente una suposición sobre la distribución estadística del ruido $v$.